In [8]:
import datetime as dt
from cltk.corpus.utils.importer import CorpusImporter

In [2]:
corpus_importer = CorpusImporter('greek')

In [3]:
corpus_importer.list_corpora


Out[3]:
['greek_software_tlgu',
 'greek_text_perseus',
 'phi7',
 'tlg',
 'greek_proper_names_cltk',
 'greek_models_cltk',
 'greek_treebank_perseus',
 'greek_lexica_perseus',
 'greek_training_set_sentence_cltk',
 'greek_word2vec_cltk',
 'greek_text_lacus_curtius']

In [4]:
corpus_importer.import_corpus('tlg', '/root/classics_corpora/TLG_E')

In [5]:
from cltk.corpus.greek.tlgu import TLGU

In [6]:
corpus_importer.import_corpus('greek_software_tlgu')

In [10]:
t = TLGU()

In [11]:
t0 = dt.datetime.utcnow()

t.convert_corpus(corpus='tlg')

print('... finished in {}'.format(dt.datetime.utcnow() - t0))


... finished in 0:00:44.181322

Now the TLG corpus is in now ready to use in Unicode. Some preprocesing is likely still required, as the text still has formatting and linebreaks present in the original printed text.


In [12]:
with open('/root/cltk_data/greek/text/tlg/plaintext/TLG0007.TXT') as file_open:
    text_snippet = file_open.read()[:1500]
print(text_snippet)


      {ΘΗΣΕΥΣ ΚΑΙ ΡΩΜΥΛΟΣ} 
  Ὥσπερ ἐν ταῖς γεωγραφίαις, ὦ Σόσσιε Σενεκίων, 
οἱ ἱστορικοὶ τὰ διαφεύγοντα τὴν γνῶσιν αὐτῶν τοῖς 
ἐσχάτοις μέρεσι τῶν πινάκων πιεζοῦντες, αἰτίας παρα-
γράφουσιν ὅτι ‘τὰ δ' ἐπέκεινα θῖνες ἄνυδροι καὶ θη-
ριώδεις’, ἢ ‘πηλὸς ἀιδνής’, ἢ ‘Σκυθικὸν κρύος’, ἢ 
‘πέλαγος πεπηγός’, οὕτως ἐμοὶ περὶ τὴν τῶν βίων τῶν 
παραλλήλων γραφὴν τὸν ἐφικτὸν εἰκότι λόγῳ καὶ βάσι-
μον ἱστορίᾳ πραγμάτων ἐχομένῃ χρόνον διελθόντι, περὶ 
τῶν ἀνωτέρω καλῶς εἶχεν εἰπεῖν ‘τὰ δ' ἐπέκεινα τερα-
τώδη καὶ τραγικά, ποιηταὶ καὶ μυθογράφοι νέμονται, 
καὶ οὐκέτ' ἔχει πίστιν οὐδὲ σαφήνειαν.’ ἐπεὶ δὲ τὸν 
περὶ Λυκούργου τοῦ νομοθέτου καὶ Νομᾶ τοῦ βασιλέως 
λόγον ἐκδόντες, ἐδοκοῦμεν οὐκ ἂν ἀλόγως τῷ Ῥωμύλῳ 
προσαναβῆναι, πλησίον τῶν χρόνων αὐτοῦ τῇ ἱστορίᾳ 
γεγονότες, σκοποῦντι δέ μοι 
 
  τοιῷδε φωτὶ (κατ' Αἰσχύλον) τίς ξυμβήσεται; 
                                        (Sept. 435) 
  τίν' ἀντιτάξω τῷδε; τίς φερέγγυος; (Sept. 395, 396) 
 
ἐφαίνετο τὸν τῶν καλῶν καὶ ἀοιδίμων οἰκιστὴν Ἀθηνῶν 
ἀντιστῆσαι καὶ παραβαλεῖν τῷ πατρὶ τῆς ἀνικήτου καὶ  
μεγαλοδόξου Ῥώμης. εἴη μὲν οὖν ἡμῖν ἐκκαθαιρόμενον 
λόγῳ τὸ μυθῶδες ὑπακοῦσαι καὶ λαβεῖν ἱστορίας ὄψιν: 
ὅπου δ' ἂν αὐθαδῶς τοῦ πιθανοῦ περιφρονῇ καὶ μὴ δέ-
χηται τὴν πρὸς τὸ εἰκὸς μεῖξιν, εὐγνωμόνων ἀκροατῶν 
δεησόμεθα καὶ πρᾴως τὴν ἀρχαιολογίαν προσδεχομένων. 
  Ἐδόκει δ' οὖν ὁ Θησεὺς τῷ Ῥωμύλῳ κατὰ πολλὰς 
ἐναρμόττειν ὁμοιότητας; ἄμφω μὲν γὰρ ἀνεγγύω καὶ 
σκοτίω γενόμενοι δόξαν ἔσχον ἐκ θεῶν γεγονέναι, 
 
  ἄμφω δ' αἰχμητά, τό γε δὴ καὶ ἴδμεν

In [ ]: